LongTraceRL: Razón de largo contexto con recompensas de rúbrica
LongTraceRL mejora el razonamiento en contexto largo usando recompensas de rúbrica y distractores por niveles desde trayectorias de agentes de búsqueda.
LongTraceRL mejora el razonamiento en contexto largo usando recompensas de rúbrica y distractores por niveles desde trayectorias de agentes de búsqueda.
<meta name=description content=Descubre cómo las ráfagas de retroceso afectan las cadenas largas de razonamiento. Analizamos la forma del exceso de pensamiento y su impacto en la cognición.>